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Синтез звуків голосу людини на основі 
фізичних моделей голосових зв'язок 
та мовного тракту 


Стаття присвячена проблемі синтезу мовного сигналу на основі фізичних моделей голосових зв'язок та 
мовного тракту. Запропоновано математичне та програмне забезпечення для реалізації цих моделей. 
Проведена серія чисельних експериментів. 


Вступ 


Метою роботи є створення алгоритмів та програмного забезпечення для відтво- 
рення звуків голосу людини з використанням фізичних моделей голосових зв'язок та 
мовного тракту. В більшості публікацій на цю тему вивчаються або моделі голо- 
сових зв'язок, або моделі мовного тракту. В даній роботі результат моделювання 
голосового джерела - потік повітря на виході з голосової щілини - використовується 
як вихідні дані в моделі мовного тракту. Здійснений порівняльний аналіз результатів 
моделювання з аналітичними моделями. Згідно з розробленими алгоритмами створено 
програмне забезпечення та проведено обчислювальний експеримент із синтезу звуків. 


Дослідження моделі голосових зв'язок 


Для дослідження обрана двомасова модель (1 | голосових зв'язок, відповідно до якої 
кожна з голосових зв'язок описується двома масами, що здійснюють автоколивання під 
впливом потоку повітря в голосовій щілині. В основу алгоритму для реалізації моделі 
покладений метод Кутта - Мерсона та метод нелінійної релаксації, які об'єднані в єдину 
ітераційну процедуру |2| для розв'язування системи, що описує зміщення мас: 


т ск 0, | емо ко (2) - хо НК, Со (2) - 2 (1) є Ру (1), 


а? а. (1 


т, -о т, оо НО» (2) - Хо) - КС (1) х, (1)) з, 4 р, з (1), 


де т і т, - маси, х (І), х,(1) - зміщення, відповідно, мас т, і т, ХурьХу - 
положення мас у стані спокою, / - час, п і г - коефіцієнти демпфування, (о, К, - 


пружність пружин для мас т, 1 т,, відповідно, К, - пружність пружини, що з'єднує 
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маси, 4,4, - товщина мас, /, - діюча довжина голосових зв'язок, /,4, І, - 


поверхні мас, на які діють тиски, відповідно, р, (ї) 1 р, (1), та нелінійної системи 


для змін тиску: 
2 


ди 


8 


ш.() бор 
ру-ри()-0.69р 3 ах: - 
й А) 12 () 


Ги, () ра, Чи 
1) - рь (1) з І2м4 58-- Я, 
ри(0) - ро (1) 1 40 4 ї 


21 


радо ро 5 рий Ра з с о) 


Ги () ра, ди 
0) - ро (І) є І2М, о В, 
ра(1) - ро (І) уа, 40 4 ї 


22 


кі и АГ) 1 о?) 
Р»(і)-ра 22) 2 й а 4 


7 


де р - густина повітря, у - зсувова в'язкість повітря, /. - довжина звуження, А, (х) - 
площа поперечного перетину звуження, А, - площа голосового тракту на вході, А,; - 


площа голосової щілини під 7-ю масою. Шуканим розв'язком задачі (1) - (2) є функція 


и,» Яка визначає потік повітря на виході з голосової щілини. Цей потік викорис- 


товується як вихідні дані для моделі мовного тракту. 
Проведена серія чисельних експериментів, за результатами яких здійснений 

аналіз впливу параметрів та інерційних членів моделі на форму вихідного сигналу, 

від якого великою міру залежить частота та тембр голосу. Зокрема, залежність пото- 


ку повітря и, від тиску р, на вході у голосову щілину зображена на рис. Іа. Вплив 


інерційних членів моделі зображений на рис. 16. 


08 -ч 
цаід ца д, А 


Рисунок І -- а) Результати розрахунків потоку повітря и, (г) для трьох значень тиску 


на вході в голосову щілину р, - 0.02, р, - 0.0012, р, -- 0.008; б) потік повітря и, на 


виході з голосових зв'язок, обчислений з інерційними членами 
(суцільна лінія) та без них (пунктирна лінія) 
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Здійснене порівняння потоку повітря, обчисленого за двомасовою моделлю, та 
потоку повітря, отриманого за аналітичною В-моделлю |З: 


2 


и.П)з 


ПА Б в Р Р 


р 


зе. 


де а - амплітуда, /, - час відкриття, /, - час закриття, /, - період. Результати порів- 


няння моделей наведені на рис. 2. 


Рисунок 2 - Потік повітря и, на виході з голосових зв'язок, обчислений 


за двомасовою моделлю (суцільна лінія) та В-моделлю (пунктирна лінія) 


Дослідження похідної потоку повітря 


Для вивчення голосового джерела, окрім функції потоку повітря, використову- 
ється її похідна. Звичайний набір параметрів для кількісного опису коливань виводиться 
із залежності похідної потоку від часу і включає |4|: амплітуду від'ємного піка, 
тривалість відкриття, тривалість закритої фази, проміжок часу між додатним 1 від'єм- 
ним піками, час повернення в початкове положення і вторинні параметри, що походять 
з них: швидкість відкриття, тривалість фази відкриття голосової щілини відносно 
періоду основного тону, тривалість фази відкритої голосової щілини відносно трива- 


лості основного тону тощо. 


Проведений порівняльний аналіз отриманої чисельної похідної потоку повітря за 
двомасовою моделлю та похідної потоку повітря, отриманою за аналітичною 1Е-мо- 


деллю |3Ї: 
Ен" яп (со) р о Я 
і ; 
а, (1 ее нен р кр, 
єї, 
0 зони 
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де г, - період, /,- відмітка мінімального значення похідної, 2, - визначається як 
точка, в якій тангенс перетинає вісь координат, /.- момент, в який похідна під час 
фази закриття майже досягає нуля, Е, - абсолютне значення мінімуму похідної, а, 


є, 9, - деякі параметри. Результати порівняння моделей наведені на рис. 3. 


і, т8 


Рисунок 3 - Чисельна похідна від потоку повітря, обчисленого за двомасовою 
моделлю (пунктирна лінія), та похідна, обчислена за 1.Е-моделлю (суцільна лінія) 


Моделювання мовного тракту 


Для моделювання розповсюдження акустичних хвиль у мовному тракті як у 
неоднорідній акустичній трубі, що починається між голосовими зв'язками та закін- 
чується губами, використовується система рівнянь акустики в частинних похідних |6-8, 
яка записується у вигляді: 


др 2 р ди 

дхо А(х) ді! 

з (х) З) 
и Ах) др 

дх о ро бі! 


де 0«х«1І,1»0, І- довжина мовного тракту, Рог) - тиск у тракті в момент часу 
Ї, их, 1) - об'ємна швидкість потоку, р - густина повітря в тракті, с - швидкість 
звуку і Ах) - функція площі поперечного перетину. 

Оскільки тракт має неоднорідний поперечний перетин, він розбивається на 
циліндричні секції однакової довжини з постійною площею перетину (рис. 4). 

Як крайова умова на вході в тракт вибирається потік и, (г) , знайдений з (1) - (2). 
Виходячи з цього, маємо крайову умову: и(0,1) зи, (г). На протилежному кінці 
тракту задаємо умову Р(.1) «0. 

Різницева задача для апроксимації системи рівнянь (3) будується на так званій 
рознесеній сітці. Для розв'язання використовується явний метод «чехарда». Цей 


алгоритм має високу обчислювальну ефективність і може використовуватися для 
моделювання в реальному часі |9). Результати роботи алгоритму наведені на рис. 5. 
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Рисунок 4 - Наближення мовного тракту циліндричними секціями 
однакової довжини 


| М | М ДМ і | НУ | АГ Ді ДМ | їй 


Є УПУРАННММЬ ПАНА МИ МАТРУ 


Рисунок 5 - Результати моделювання російського звуку |а| 
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Висновки 


Проведені в роботі дослідження комп'ютерних моделей голосових зв'язок та мов- 
ного тракту продемонстрували можливість їх спільного використання в системах ар- 
тикуляторного синтезу. Порівняння результатів моделювання з аналітичними моделями 
свідчать про адекватність одержаних результатів, а створене програмне забезпечення 
дозволяє в зручному режимі задавати різні набори параметрів моделей для генерації 
звуків голосу людини. 
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Ю.В. Крак, Й.О. Стеля 

Синтез звуков голоса человека на основе физических моделей голосовьтх связок 

и речевого тракта 

Статья посвящена проблеме синтеза речевого сигнала на основе физических моделей голосовьіх 
связок и речевого тракта. Предложено математическоє и программное обеспечение для реализации 
зтих моделей. Проведена серия числовьїх зкспериментов. 
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